1
Tổng quan và Bức tranh tiến hóa kiến trúc
EvoClass-AI003Bài giảng 4
00:00

Tổng quan và Bức tranh tiến hóa kiến trúc

Chúng ta chuyển từ thành công nền tảng của AlexNet sang thời kỳ của các mạng nơ-ron sâu cực kỳ mạng nơ-ron tích chập (CNNs). Sự thay đổi này đòi hỏi những đổi mới kiến trúc sâu sắc để xử lý độ sâu cực lớn mà vẫn duy trì tính ổn định trong huấn luyện. Chúng ta sẽ phân tích ba kiến trúc then chốt—VGG, GoogLeNet (Inception), và ResNet—hiểu cách mỗi kiến trúc giải quyết các khía cạnh khác nhau của bài toán mở rộng quy mô, tạo nền tảng cho việc diễn giải mô hình một cách nghiêm ngặt ở phần sau của bài học này.

1. Tính đơn giản về cấu trúc: VGG

VGG đã giới thiệu phương pháp tối đa hóa độ sâu bằng cách sử dụng các kích thước bộ lọc nhỏ và cực kỳ đồng nhất (chỉ có bộ lọc tích chập 3x3được chồng lên nhau). Mặc dù tốn kém về mặt tính toán, nhưng sự đồng nhất về cấu trúc của nó đã chứng minh rằng độ sâu thực tế, đạt được nhờ sự thay đổi kiến trúc tối thiểu, chính là yếu tố chủ chốt thúc đẩy cải thiện hiệu suất, củng cố tầm quan trọng của các trường nhận diện nhỏ.

2. Hiệu quả tính toán: GoogLeNet (Inception)

GoogLeNet đã khắc phục chi phí tính toán cao của VGG bằng cách ưu tiên hiệu quả và trích xuất đặc trưng đa quy mô. Đột phá cốt lõi là module Inception, thực hiện các phép tích chập song song (1x1, 3x3, 5x5) và trích xuất đặc trưng. Quan trọng nhất, nó sử dụng tích chập 1x1 như là các điểm nghẽnđể giảm mạnh số lượng tham số và độ phức tạp tính toán trước các thao tác tốn kém.

Thách thức kỹ thuật then chốt
Câu hỏi 1
Kiến trúc nào nhấn mạnh tính đồng nhất về cấu trúc bằng cách sử dụng chủ yếu các bộ lọc 3x3 để tối đa hóa độ sâu?
AlexNet
VGG
GoogLeNet
ResNet
Câu hỏi 2
Tích chập 1x1 chủ yếu được dùng trong module Inception với mục đích cơ bản nào?
Tăng độ phân giải bản đồ đặc trưng
Kích hoạt phi tuyến
Giảm chiều dữ liệu (điểm nghẽn)
Chú ý không gian
Thách thức then chốt: Hiện tượng gradient biến mất
Các giải pháp kỹ thuật cho tối ưu hóa
Giải thích cách ánh xạ đồng nhất của ResNet giải quyết căn bản vấn đề gradient biến mất, vượt xa các kỹ thuật như khởi tạo trọng số cải tiến hay chuẩn hóa_batch.
Câu hỏi 1
Mô tả cơ chế mà đường nối bỏ qua giúp ổn định dòng gradient trong quá trình truyền ngược.
Lời giải:
Đường nối bỏ qua đưa vào đầu ra một hạng tử đồng nhất ($+x$), tạo ra một hạng tử cộng dồn trên đường đi của đạo hàm ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Hạng tử này đảm bảo tồn tại một con đường trực tiếp cho tín hiệu gradient chảy ngược lại, đảm bảo rằng các trọng số phía trước luôn nhận được tín hiệu gradient không bằng 0 và có thể sử dụng, bất kể độ nhỏ của gradient qua hàm dư thừa $F(x)$ là bao nhiêu.